Cuando RL falla tras SFT: rejuveneciendo la plasticidad del modelo
Descubre cómo el sobreentrenamiento en SFT reduce la plasticidad del modelo y cómo el método Rejuvenation restaura la capacidad de aprendizaje por refuerzo para mejorar el rendimiento.